EAGLE, vLLM, TorchSpec 3사 협업한 추론 속도 혁신
EAGLE, vLLM, TorchSpec 팀이 협력하여 대규모 언어 모델(LLM)의 추론 속도를 획기적으로 높이는 'EAGLE 3.1' 스페큘러티브 디코딩(Speculative Decoding) 알고리즘을 발표했습니다. 이번 업데이트는 긴 문맥이나 다양한 프롬프트 환경에서 발생하는 '어텐션 드리프트(Attention Drift)' 문제를 해결하여, 기존 대비 최대 2배 긴 컨텍스트 수용 길이를 달성하며 모델 배포 안정성을 크게 높였습니다. 또한 실제 서비스 모델인 Kimi K2.6용 드래프트 모델을 오픈소스로 공개하고 vLLM 메인 브랜치에 통합하여 산업계의 실사용성을 강화했다는 점에서 중요합니다.